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HE: [目的 /意义 ] 对 已 有 的 文本 表示 、 分 类 算法 进行 组 合 ， 遂 选 一 种 复杂 度 低 、 训 练 时 间 少 的 组 合 
方式 ， 构 建 商品 评论 情感 文本 分 类 的 优化 模型 。[ 方 法 / 过程] 以 Keras API 为 应 用 环境 ,将 Word2vec 词 
向 量 输 入 Embedding 误 入 层 ， 依 据 匈 子 词 索引 序列 ， 通 过 控制 trainable 参数 实现 3 种 商品 评论 的 文本 表示 ; 
将 不 同 的 文本 表示 分 别 与 不 同 分 类 算法 进行 匹配 ， 分 析 分 类 效果 差异 ， 确 立 较 优 算法 组 合 。 [ 结果 /结论 ] 
Word2vec 词 向 量 输入 Embedding 餐 入 层 继 续 训 练 的 文本 表示 方法 ,结合 TextCNN 算法 训练 获得 的 分 类 模型 ， 
在 商品 评论 测试 集 上 分 类 效果 表现 较 好 , 准确 率 和 ROC 曲线 面积 AUC 值 分 别 为 94.02%、0.982 7. 应 用 表明 ， 
分 类 模型 能 较 好 实现 商品 评论 的 情感 分 类 ， 有 较 好 的 分 类 泛 化 能 


关键 词 : 深度 学 习 
分 类 号 : TP391 


情感 分 类 Word2vec 词 向 量 Embedding >Æ TextCNN 


引用 格式 : FLA, 陈 诗 琴 .基于 深度 学 习 的 商品 评论 情感 分 类 研究 [IOL]. 知识 管理 论坛 , 2018, 3(6): 


353-363[ 引用 日 期 ]. http:/Avww.kmf.ac.cn/p/154/. 


文本 情感 分 析 是 智能 多 媒体 内 容 理 解 领域 
的 重要 问题 ， 是 让 机 絮 具 有 和 学习、 推理 和 认 知 
能 力 的 基础 。 文 本 情感 分 类 则 是 文本 情感 分 析 
的 核心 。 文 本 情感 分 类 研究 面临 着 标准 文本 获 
取 困 难 、 情 感 资源 分 配 不 均 和 数据 稀 琉 性 问题 。 
同时 ,文本 分 类 技术 多 样 ， 不 同 的 分 类 技术 有 
不 同 的 优 缺点 ， 所 以 具体 的 文本 情感 分 类 技术 
必须 落实 到 具体 应 用 领域 ， 这 样 才 能 发 现 其 最 
优 的 应 用 效果 站。 

电子 商务 网 站 的 商品 评论 数据 丰富 ， 情 感 
特征 较为 明显 。 以 商品 评论 文本 为 对 象 ， 进 行情 
感 分 析 有 具有 现实 基础 ， 也 有 积极 的 应 用 前 景 。 


y 


情感 分 析 技 术 已 应 用 于 电子 商务 、 社 交 网 络 等 
互联 网 相关 领域 ， 其 主要 任务 是 识别 出 用 户 在 
评论 文本 中 流露 出 的 情感 信息 。 

随 着 商品 评论 情感 分 类 中 文本 表示 方法 、 
分 类 算法 改进 复杂 度 的 增加 ， 分 类 准确 率 有 一 
定 提 高 ， 但 是 模型 训练 时 间 会 变 长 ， 算 法 复 现 
应 用 难度 较 大 。 本 文 在 当前 主要 的 文本 表示 、 
分 类 算法 的 基础 上 ， 从 降低 模型 复杂 度 ， 减 少 
模型 训练 时 间 和 降低 实现 难度 的 角度 ， 以 京东 
电 商 网 站 的 商品 评论 为 语 料 ， 选 择 不 同 的 文本 
表示 方法 与 分 类 算法 进行 组 合 ， 开 展 文 本 情感 
分 类 模型 的 构建 、 训 练 与 评估 的 应 用 研究 。 
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OO 商品 评论 情感 分 类 相关 研究 


目前 已 有 商品 评论 情感 分 类 相关 研究 成 果 
揭示 了 情感 分 析 技 术 的 3 种 主要 类 别 : 

(1) 基于 规则 的 情感 分 类 。 通 过 制定 语义 
规则 ， 结 合 语 料 库 和 情感 词典 来 抽取 文本 中 的 
情感 信息 ， 再 计算 相应 的 情感 倾向 。 如 王 志 涛 
等 对 微 博 的 情感 分 析 是 通过 建立 句 型 分 析 规 则 、 
句 间 关系 分 析 规 则 、 词 语 多 元 组 分 析 规 则 来 制 
定语 义 规则 中。 这 类 人 情感 分 析 技 术 的 关键 在 于 
各 种 规则 的 制定 。 而 规则 的 制定 又 依赖 于 情感 
词典 和 分 类 目标 的 确立 ， 这 要 耗费 大 量 时 间 和 
人 力 。 因 此 ， 目 前 该 方法 使 用 较 少 。 

(2) 基于 机 器 学 习 的 情感 分 类 。 运 用 机 顺 
学 习 方 法 ， 通 过 已 知 文本 特征 建立 情感 分 类 模 
型 ， 再 利用 模型 对 未 知 文本 进行 情感 分 类 。 基 
于 机 器 学 习 的 情感 分 类 关键 在 于 特征 和 分 类 算 
法 选取 ， 尤 其 是 特征 选取 。 已 有 研究 在 对 商品 
评论 进行 情感 分 析 时 ， 主 要 应 用 的 机 器 学 习 分 
类 算法 有 : FPR THT NBS! SGD 算法 中、 
支持 向 量 机 SVM 、 最 近邻 算法 KNN 和 随机 
森林 RF 等。 它们 的 特征 提取 方式 也 不 尽 相 同 ， 
但 均 是 依赖 情感 词典 进行 提取 。 

(3) 基于 深度 学 习 方 法 的 情感 分 类 。 随 
着 深度 学 习 的 发 展 ， 现 有 很 多 深度 学 习 方 法 已 
应 用 到 情感 分 类 领域 ， 如 胡 朝 举 等 融合 情感 标 
签 改 进 Word2vec 词 向 量 作 为 情感 文本 表示 方 
法 中、 金 志 刚 等 将 深度 学 习 Bi-LSTM 模型 提取 
社交 媒体 用 户 评价 情感 的 抽象 特征 路 、 刘 全 等 
提出 一 种 RCNN-HLSTM 的 深度 分 层 网 络 模型 
进行 情感 分 析 U, Yoon K 提出 TextCNN 模型 
用 于 文本 分 类 M 等 。 浅 层 机 器 学 习 方 法 特征 选 
择 具 有 局 限 性 ， 而 深度 学 习 方 法 不 必 单 独 构建 
情感 词典， 不 受 人 为 因素 影响 ， 它 能 自动 从 数 
据 中 学 习 提 取 特 征 形成 研究 热点 。 

深度 学 习 主 要 利用 词 般 入 技术 (如 
Word2vec!", GloVe, FastText, WordRank 和 
text2vec 等 ) 进行 文本 信息 的 词 向 量 表示 ， 可 
计算 词语 间 的 语义 关联 ， 更 有 利于 文本 抽象 特 
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征 学 习 ， 并 有 大 量 优秀 的 深度 神经 网 络 分 类 算 
法 ( 如 多 层 全 连接 神经 网 络 MLP， 卷 积 神经 网 
络 CNN, TextCNN'”!), (if 1 4H 2 Ba RNN, 
LSTM, GRU, Bi GRU, Bi LSTM, Li K & 
种 改进 型 神经 网 络 算法 等 ) 可 使 用 。 研 究 重 
点 为 基于 上 述 经 典 的 文本 表示 方法 和 分 类 算 
法 进行 改进 融合 ， 如 胡 朝 举 等 融合 情感 标签 
改进 Word2vec 词 癌 量 作为 文本 表示 方法 ， 将 融 
合 attention 的 Bi LSTM 与 CNN 并 联接 受 词 向 
量 输入 ， 输 出 合并 后 再 次 融合 attention， 再 连接 
LSTM， 最 终 输 出 句子 向 量 趾 ,但 这 种 分 类 算法 
比较 复杂 。 类 似 算法 融合 改进 研究 较 多 "…。 

ER (1) 基于 规则 的 情感 分 类 、(2 ) 基 
于 机 器 学 习 的 情感 分 类 都 要 依赖 情感 词典 去 表 
示 情 感 特征 ， 因 此 情感 词典 的 质量 直接 影响 特 
征 提取 质量 。 加 上 情感 词典 构建 需要 人 们 的 先 
验 知识 ， 构 建 过 程 容易 受到 人 为 因素 影响 。 且 
情感 词典 通用 性 并 不 好 ， 某 一 领域 的 特征 集 不 
一 定 适应 另 一 个 领域 。 所 以 ， 前 两 种 分 类 方法 
并 未 成 为 情感 分 析 研 究 的 主流 ，(3 ) 基于 深度 
学 习 方法 的 情感 分 类 中 的 文本 表示 与 分 类 算法 
改进 融合 才 是 当前 研究 的 热点 。 随 着 文本 表示 
方法 和 分 类 算法 改进 复杂 度 的 增加 ， 分 类 准确 
率 也 许 有 一 定 提高 , 但 是 模型 训练 时 间 会 变 长 ， 
算法 复 现 应 用 难度 较 大 。 


人 @ 研 究 思路 与 框架 


2.1 研究 思路 

因此 ， 针 对 上 述 (3 ) 基于 深度 学 习 方法 的 
情感 分 类 中 的 问题 ， 本 文 从 降低 模型 复杂 度 、 
减少 模型 训练 时 间 和 降低 实现 难度 的 角度 ， 选 
择 深 度 学 习 方 法 ， 展 开 商 品评 论文 本 情感 分 类 
模型 的 构建 、 训 练 与 评估 的 应 用 研究 。 

为 了 降低 模型 复杂 度 ， 采 用 深度 学 习 框架 
Embedding 通信 层 训练 词 向 量 方法 和 经 典 分 类 算 
法 。 前 者 只 需 设 置 Embedding tk A JA JB 
即 可 ; 后 者 大 多 已 集成 在 深度 学 习 框 架 中 ， 直 
接 调用 算法 模块 ,设置 相 应 参数 即 可 。 整 个 应 
用 过 程 并 不 需要 做 任何 算法 改进 ， 从 而 降低 了 
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应 用 难度 。 

为 了 获得 最 优 分 类 效果 ， 减 少 模型 训练 时 
间 ， 将 Word2vec 词 艇 入 技术 训练 词 向 量 、 深 度 
学 习 框架 Embedding 通信 层 训练 词 向 量 进行 组 
合 ， 形 成 3 种 语 料 文本 表示 方法 ， 并 分 别 与 分 
类 算法 (CNN, GRU, LSTM, Bi GRU, Bi 
LSTM TextCNN ) 进行 组 合 应 用 。 通 过 比较 分 
类 准确 率 、 训 练 拟 合 程度 和 训练 时 间 长 短 差异 ， 
从 而 确立 较 优 的 文本 表示 方法 和 分 类 算法 组 合 。 

其 中 深度 学 习 框 架 Embedding 能 入 层 训练 
词 向 量 方法 和 TextCNN 分 类 算法 ， 目 前 在 中 文 
情感 分 类 中 应 用 较 少 。 
2.2 实现 框架 

以 Keras”! 深度 学 习 API 作为 应 用 环境 ， 


句子 向 量 转换 


HONORE Buppaqua 


情感 分 类 主要 任务 有 : 文本 编码 ( 包括 文 
本 分 词 、 词 字典 建立 、 句 子 的 词 索引 转换 、 词 
向 量 训 练 等 ) 、 数 据 集 构建 、 模 型 搭建 与 训练 
和 模型 评估 。 结 合 实现 框架 ， 制 定 详细 的 实现 
流程 如 图 2 所 示 : 

整个 流程 对 应 以 下 4 个 具体 过 程 : 

(1 ) 语 料 分 词 处 理 。 选 择 中 文 分 词 工 具 ， 
对 原始 语 料 进 行 分 词 但 不 作 停 用 词 过 滤 处 理 ， 
并 使 用 正则 值 过 滤 非 中 文字 符 。 

(2) 句子 词 索引 矩阵 构建 。 遍 历 所 有 语 料 
样本 ， 获 取 所 有 词语 并 作词 频 统计 ， 为 每 个 词 
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以 Word2vec 训练 词 回 量 、Embedding #x A Jz ill 
练 词 问 量 和 两 者 结合 训练 词 回 量 ， 作 为 不 同 的 
语 料 文本 表示 方法 ， 分 别 与 多 个 分 类 算法 进行 
组 合 应 用 。 通 过 比较 分 析 分 类 效果 差异 ， 从 而 
确立 较 优 的 文本 表示 方法 和 分 类 算法 组 合 。 

首先 对 语 料 分 词 并 进行 Word2vec 词 问 量 预 
训练 ， 获 得 具有 语义 信息 的 词 向 量 。 根 据 每 条 
语 料 的 分 词 顺序 ， 检 索 出 对 应 的 词 向 量 并 依次 
排列 ， 形 成 预 训练 句子 向 量 。 再 经 Embedding 
般 入 层 继 续 训 练 句子 癌 量 ， 然 后 将 句子 向 量 与 
正 负 情感 分 类 标签 信息 通过 输入 层 输入 分 类 算 
法 中 ， 经 隐藏 层 和 输出 层 对 输入 数据 进行 多 次 
迭代 训练 ;， 最终 获 得 情感 分 类 模型 。 主 要 实现 
框架 如 图 1 所 示 : 


输出 节点 | 


图 1 主要 实现 框架 


语 分 配 唯一 的 索引 ID。 然 后 将 所 有 样本 句子 转 
化 为 词 索引 ID 序列 ， 即 构成 所 有 成 句子 词 索引 
矩阵。 

(3) 词 向 量 和 矩阵 构建 。 首 先 选择 词 向 量 训 
练 工具 ， 根 据 需求 设置 相关 参数 ， 训 练 语 料 词 
向 量 ; 然后 结合 词 索引 ID 构建 词 向 量 和 矩阵 ， 每 
一 列 代表 一 个 词 的 向 量 。 

(4) 分 类 模型 训练 。 选 择 合适 的 分 类 算法 
构建 分 类 模型 ， 并 将 词 向 量 和 矩阵 、 句 子 词 索引 


和 矩阵 和 对 应 的 正 负 人 情感 分 类 标签 信息 ， 加 载 到 
模型 的 数据 输入 层 中 ， 然 后 进行 句子 词 索 引 ID 
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与 词 向 量 的 映射 转换 ， 最 后 进行 模型 训练 、 验 
证 与 评估 。 


原始 语 料 
分 词 处 理 
v 
词 向 量 训练 > 一 | 分 词语 料 m 词 频 统计 
构建 词 向 量 字典 构建 词 字 
vy = 

生成 词 向 量 和 矩阵 < | 生成 句子 词 索引 和 矩阵 
YY ~v y Y 
神 四 训练 集 站 验证 集 | 一 一 > 测试 集 
经 
网 | 一 去 v w| 
络 | | get te EP || 感 | | 模 


i H] 

; R y bee a ET 
训 分 类 | | M 结 

算 练 类 < 一 调整 训练 | E y 果 


2 实现 流程 设计 


全 分 类 模型 实现 


3.1 语 料 文 本 表示 

Keras 中 的 Embedding WA JAIEI y 3 种 向 
量 训练 方式 ， 不 同 训练 方式 需 设置 trainable 不 
同 参 数值 进行 控制 : 中 将 评价 句子 词 索引 ID 编 
号 作为 词 向 量 输入 ，trainable 参数 为 True， 进 行 
词 向 量 训练 ; Qu Word2vec 预 训练 好 的 词 向 量 ， 
作为 Embedding 通信 层 的 权重 值 输入 ，trainable 
参数 为 False， 词 向 量 不 会 被 训练 更 新 ;外 将 
Word2vec 预 训练 好 的 词 向 量 ， 作 为 Embedding 
RATE WA EH UAL, trainable 参数 为 True， 
词 向 量 会 继续 参与 训练 更 新 。 主 要 通过 控制 
Embedding 通信 层 的 数据 输入 和 trainable 参数 控 
制 ， 从 而 形成 3 种 不 同 的 文本 表示 方法 。 后 文 
应 用 部 分 将 对 3 种 方法 进行 对 比分 析 。 
3.1.1 Word2vec 词 向 量 训 练 

Word2vec 采用 CBOW 或 Skip-Gram 模型 ， 
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利用 上 下 文 信息 来 预测 当前 词语 的 语义 信息 ， 
从 而 生成 词 问 量 ， 实 现 词 向 空间 的 映射 ， 通 过 
计算 空间 向 量 间 的 距离 获得 词语 间 语 义 上 的 相 
似 度 。Word2vec 词 向 量 克 服 了 One-Hot 词 向 量 
的 “词汇 鸿沟 ”和 “维度 灾难 ”缺陷 ， 更 有 利 
于 文本 表示 "Y, 

采用 python 版 的 Word2vec 工具 进行 词 
VA, 具体 过 程 如 下 : 中 从 gensim.models 
模块 中 导入 Word2vec 类 ; 四 设置 词 向 量 维度 
为 256 和 训练 窗口 大 小 为 8 SBM, 加 选择 
Text8Corpus 方法 ， 加 载 已 分 词 的 文本 文件 ; 
@ 定 义 模型 变量 model， 选 择 Skip-Gram 训练 方 
式 , 并 将 参数 和 文本 数据 传递 给 Word2Vec 方 法 ， 
赋值 给 model; @ 执 行 model.wv.save_word2vec_ 
format 方法 ， 开 始 训练 并 保存 训练 结果 。 训 练 
结果 包含 了 词语 与 对 应 向 量 , 保存 为 文本 文档 。 
其 中 向 量 值 已 作 归 一 化 处 理 。 

3.1.2 生成 词 向 量 矩 阵 

词 问 量 文档 中 存储 结构 为 “ 词 +” "+ 向 量 ”， 
每 个 词 与 对 应 词 向 量 为 一 行 ， 之 间 由 空格 隔 
开 ， 例 如 “正品 0.532 237 0.139 422 0.062 200 
peas ”。 根据 结构 特点 可 循环 读 取 每 行 数据 ， 
利用 空格 将 词 与 向 量 分 开 ， 以 词 为 关键 字 、 问 
量 为 值 生成 词 癌 量 字 典 。 词 向 量 字 典 结 构 为 : 

“{key: 词 ,value: 向 量 }”。 

使 用 Keras 文本 预 处 理 Tokenizer 类 ， 对 所 
有 词语 进行 词 频 统计 ， 按 照 词 频 大 小 顺序 给 每 
个 词语 赋予 唯一 ID 编号， 以 词 为 关键 字 、 对 应 
编号 为 值 生成 词 字典 。 词 字典 结构 为 : “{key: 
词 value: 编号 }”。 

将 词 向 量 字 典 与 词 字 典 以 “ 词 ”为 关联 建 
立 词 向 量 和 矩阵 ， 和 矩阵 中 所 有 词 向 量 按 照 词 对 应 
ID 编号 顺序 排序 。 最 后 在 词 癌 量 和 矩阵 上 再 增加 
和 矩阵 序号 为 0 和 序号 为 词 字典 长 度 +1 的 向 量 ， 
并 将 初始 化 为 (0,0.001 ) 间 的 随机 值 。 

3.1.3 生成 句子 词 索 引 和 矩阵 

使 用 Tokenizer 类 的 texts to_sequences 函数 
和 序列 转换 pad_sequences 类 ， 将 句子 中 每 个 分 
词 由 词 字典 中 对 应 ID 编号 来 代替 ， 生 成 句子 词 
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换 ， 例 如 : “[[241 5775 2247 ...,0 0 0][603 154 1 
.0 00]...]”。 
由 于 评论 语句 长 短 不 一 ， 需 要 统一 句子 索 


引 长 度 ， 具 体 长 度 值 的 选取 可 根据 句子 长 度 分 
布 而 决定 ， 当 句子 长 度 小 于 设 定 值 时 ， 在 序列 
后 面 补充 0; 当 大 于 设 定 值 时 ， 将 序列 后 面 超出 
部 分 丢弃 。 
3.2 分 类 模型 搭建 

针对 本 文 任务 利用 多 个 分 类 算法 进行 
实验 比较 ， 最终 选 择 了 分 类 效果 较 好 的 
TextCNN 分 类 算法 。 分 类 模型 首先 进行 句子 
词 索 引 与 词 向 量 的 映射 转换 ， 然 后 对 词 向 量 
进行 卷 积 操 作 。 
3.2.1 TextCNN 分 类 模型 结构 

TextCNN 分 类 模型 包括 InputLayer ( 输入 
层 )、Embedding( 4x AJ& )、SpatialDropout1D( 整 
张 特征 图 正则 化 层 ) 、Conv1D ( 卷 积 层 ) 、 
MaxPoollD ( 池 化 层 ) 、Concatenate ( 拼接 层 ) 、 
Flatten ( 压 平 层 ) 、 a (正则 化 层 ) 
Dense( 全 连接 层 ， 含 activation 激活 函数 ) 。 其 
结构 如 图 3 所 示 : 


214 63 0| sx 
查 表 
; 1632 ‘J 


3.2.3 词 向 量 卷 积 

每 个 句子 抢 阵 大 小 为 (m，256 ) , mW 
句子 词 向 量 个 数 ，256 为 词 向 量 维度 。 假 如 
Conv1D 卷 积 核 长 度 为 2， 在 对 句子 卷 积 操作 时 ， 
实际 上 是 在 m 个 词 向 量 上 以 (2，256 ) 的 大 小 
由 上 而 下 的 单方 向 移动 进行 卷 积 ， 因 此 该 卷 积 
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图 3 TextCNN 分 类 模型 结构 


3 个 ConvID 卷 积 核 长 度 分 别 为 2、3、 
4， 默 认 移 动 步 长 为 1， 激活 函数 为 relu; 每 个 
MaxPoollD 池 化 层 输出 1 个 特征 最 大 的 词 向 量 87, 
3.2.2 句子 词 索引 与 词 向 量 映射 

训练 前 由 Embedding ix A iit ial R 4| 
ID 在 词 癌 量 和 矩阵 中 执行 查 表 操作 ， 获 得 每 个 词 
索引 JID 的 词 向 量 ， 并 依次 组 合 为 句子 的 词 向 量 
和 矩阵， 映射 关系 实例 见 图 4， 左 边 为 句子 词 索 引 
矩阵， 中 间 为 所 有 词 的 词 向 量 矩 了 泗 ， 右 边 为 句子 
HER, wi (i=0,1,...,6) 为 256 Hm E e 


图 4 分 词 索引 ID 与 词 向 量 映射 关系 


过 程 类 似 于 使 用 神经 网 络 进 行 N-gram=2 的 词 与 
词 间 局 部 相关 性 特征 提取 ， 这 正 是 使 用 卷 积 神 
经 网 络 处 理 文本 会 非常 快速 有 效 的 原因 。 

RA 3 个 并 联 Conv1D 卷 积 分 别 得 到 m-1、 
m-2, m-3 个 卷 积 后 的 向 量 ， 然 后 分 别 对 m-1、 
m-2, m-3 个 向 量 进行 MaxPoollD 池 化 操作 ， 各 
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输出 1 个 特征 最 大 的 词 向 量 并 进行 Concatenate 
拼接 处 理 ， 得 到 句子 的 3 个 特征 向 量 并 送 分 类 
Ar BE TT PAS. OPS ait HEC RO sigmoid, fh 
AR pki BLN binary crossentropy， 算 法 优化 顺 为 


adam. 


@@ 应 用 与 分 析 


模型 训练 过 程 中 使 用 了 动态 调整 学 习 率 的 
ReduceLROnPlateau 方法 和 防止 训练 过 拟 合 的 
EarlyStopping 方 法 。 二 者 相互 配合 , 实时 监控 “ 验 
证 集 损失 val loss” 是 否 在 继续 减 小 ， 并 作出 相 
应 训练 调整 。 

分 类 模型 效果 评估 除了 使 用 测试 集 测试 准 
确 率 外 ， 还 使 用 模型 平均 性 能 评价 的 R OC Ht 
线 下 方面 积 (AUC 值 ) 大 小 进行 评估 。AUC 值 
越 接近 于 1， 表 明 分 类 模型 效果 越 好 。 

4.1 评论 数据 获取 

通过 京东 电 商 网 站 的 商品 地 址 抓 取 商 
品评 论 数 据 商品 地 址 形 如 : “http://item. 
jd.com/1658812308.html”， 


其 中 “1658812308” 


句子 数量 (条) 


4 0 80 1 
句子 分 词 数 星 分布 “个 ) 
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数字 部 分 为 商品 的 编号 。 根 据 商品 编号 规则 ， 
随机 生成 待 抓 取 的 商品 编号 ， 构 成 商品 地 址 列 
表 ， 并 进行 地 址 有 效 性 判断 。 有 效 则 抓 取 商 品 
页 面 上 的 好 评 、 差 评 两 类 评价 数据 内 容 。 分 析 
商品 评价 页 面 的 HTML 标签 信息 ， 主 要 抓 取 
“content” (PETA ) Ail “rating” (好 评 为 3、 
差 评 为 1 的 标志 ) 标签 内 容 ， 并 对 内 容 中 的 一 
些 标签 或 符号 进行 清理 ， 最 后 将 评价 内 容 和 好 
评 差 评 标志 信息 保存 为 关系 型 数据 。 根 据 上 述 
抓 取 方法 ， 于 2018 年 2 月 随机 抓 取 了 京东 商品 
评论 数据 约 60 000 条 ， 经 过 数据 清洗 加 工 、 好 
PES ZR SIT OT, FAR iE 31 120 条 
实验 语 料 数据 并 进行 正 负 情感 分 类 标注 ， 好 评 
数据 15 560 条 、 差 评 数据 15 560 条 ， 正 负 分 类 
数据 平衡 。 将 数据 按照 6:2:2 的 比例 拆 分 为 训练 
集 18 672 条 、 验 证 集 6 224 条 和 测试 集 6 224 条 
3 个 部 分 。 
4.2 句子 长 度 选择 

经 语 料 分 词 处 理 后 , 统计 每 条 句子 的 长 度 ， 
生成 句子 长 度 分 布 直方 图 ， 如 图 5 所 示 : 


句子 长 度 分 布 


00 120 140 


图 5 句子 长 度 分 布 统计 


句子 长 度 主要 分 布 在 0-140 个 词 之 间 ， 词 
个 数 在 8 左右 的 句子 最 多 ， 占 了 7 000 多 条 。 随 
着 句子 长 度 增 加 ， 人 句子 条 数 越 来 越 少 ， 总 体 属 


于 短文 本 分 类 问题 。 实 验 将 从 8-140 之 间 选 择 
16, 32, 64 和 128 共 4 个 点 进行 长 度 比较 实验 。 
选择 Embedding 其 入 层 词 向 量 常见 训练 方 
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词 向 量 进行 分 别 训练 ， 然 后 与 TextCNN 分 类 模 
型 实验 。 实 验 结果 见 表 1， 生 成 结果 比较 曲线 
见 图 6。 


k1 不 同 句子 长 度 的 分 类 结 


准确 率 (% ) 


长 度 Trainable 参数 值 迭代 次 数 AUC 值 
训练 集 验证 集 测试 集 
16 False 24 91.95 90.46 90.22 0.964 8 
32 False 16 91.95 91.85 92.13 0.971 6 
64 False 18 93.25 92.51 92.16 0.974 8 
128 False 19 93.06 92.88 92.29 0.977 2 
准确 率 (4) ROC 曲 线 面积 迭代 次 数 
24 ELD va 
0.976 4 em ACE =- 迭代 次 数 
0.9744 224 
0.972 4 
2 4 
0.970 4 
0.968 4 18 4 
0.966 4 
16 
25 50 75 100 125 25 50 735 100 125 
图 6 不 同 句子 长 度 的 分 类 结果 比较 
从 图 6 可 知 模型 的 准确 率 和 ROC 曲线 面积 D “Embedding (Emb)” 、@ “Word2vec 


AUC 值 都 随 着 句子 长 度 的 增加 而 增加 ， 长 度 为 
128 时 准确 率 和 AUC 值 最 高 ， 分 别 为 92.29%、 
0.977 2。 相 比 取 16 分 别 高 出 1.93%、0.012 4, 
而 迭代 次 数 排 第 3， 并 未 增加 太 多 。 所 以 长 度 取 
128 较 合 适 。 
4.3 不 同文 本 表示 方法 效果 对 比 

选择 Embedding tie A Je 0 m Œ ll AE Fr R 


(Vec)” 和 @ “Word2vec + Embedding 
(VectEmb)” ”， 另 外 增加 基于 方式 四 
的 一 种 变换 方式 “Word2vec*TF-IDFC 
(Vec*TF-IDF ) ”( 词 向 量 乘 以 词 频 权 重 
TF-IDF ) ， 分 别 与 TextCNN 分 类 模型 进行 
实验 。 分 类 结果 见 表 2， 生 成 结果 比较 曲线 
见 图 7。 


表 2 不 同文 本 表示 方法 的 分 类 结 


| l E 准确 率 (%) 
文本 表示 Trainable 参数 值 ”迭代 次 数 一 一 — 一 一 AUC {Ë 
训练 集 验证 集 测试 集 
Emb True 6 98.77 92.43 92.13 0.9757 
Vec False 19 93.06 92.88 92.29 0.9772 
Vec*TF-IDF False 46 88.46 89.73 88.72 0.9557 
VectEmb True 12 96.60 93.91 94.02 0.982 7 
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准确 率 (%) ROC 曲 线 面积 ARH 
AUC HOR 
0.960 C7 Ae ad = BRAK 
0.975 
%4 
0.970 
. 965 24 
0. 960 10] 
88 0.955 
Vec*TF-IDF Emb Vec VectEmb Vec*TF-1DF Emb Vec VectEmb Vec*TF-IDF Emb Vec Vec+Emb 
图 7 不 同文 本 表示 方法 的 分 类 结果 


从 表 2、 7 可 知 : 

(1) 方式 (DD “Emb” KERO “Vec” M 
试 集 上 的 准确 率 低 0.16%， 在 训练 集 上 过 拟 合 程 
度 最 大 。 

(2) 方式 @“Vec” 测 试 集 上 的 准确 率 和 
AUC 值 都 居 第 二 ， 分 别 为 92.29%、0.977 2， 在 
训练 集 上 拟 合 程度 最 好 。 

(3) 方式 @ “VectEmb” 测 试 集 上 的 准确 
率 和 AUC 值 最 高 ,分 别 为 94.02% 0.982 7, 比 (2) 
方式 @ 分 别 高 出 1.73%、0.005 5， 在 训练 集 上 过 
拟 合 程 度 居中 ， 和 迭代 次 数 排 第 二 。 


(4) “Vec*TF-IDF” 方 式 ， 测试 集 上 的 准 
MRA AUC 值 都 最 低 ， 在 训练 集 上 拟 合 较 好 。 

词 向 量 训 练 方 式 @@ 更 有 利于 准确 率 的 
提高 ， 方 式 包 有 利于 训练 抗 过 拟 合 ， 下 一 
步 选择 不 同 分 类 算法 进一步 实验 来 检验 其 
4.4 不 同 分 类 算法 效果 对 比 

选择 CNN、LSTM、GRU、Bi LSTM, Bi_ 
GRU 和 TextCNN 分 类 算法 与 词 癌 量 训练 方式 
四 、 包 分 别 进行 实验 ， 实 验 结果 见 表 3， 生 成 结 
果 比 较 曲 线 见 图 8。 


表 3 不 同 分 类 算法 的 分 类 结果 


准确 率 (%) 


分 类 算法 与 3 示 Trainable BY ARIE AUC 
分 类 算法 与 文本 表示 rainable 参数 值 迭代 次 数 JZE me 测试 集 值 
CNN+ © False 24 94.89 92.27 92.19 0.972 3 
CNN+ © True 7 98.66 93.32 93.20 0.978 3 
GRU+ © False 18 94.07 92.57 92.22 0.9774 
GRU+ © True 8 98.56 93.22 93.49 0.9811 
Bi LSTM+ © False 34 93.44 92.54 92.71 0.977 5 
Bi_LSTM+ © True 9 97.65 92.85 93.33 0.978 2 
LSTM+ © False 16 94.15 92.84 92.89 0.9777 
LSTM+ © True 10 98.00 92.95 93.12 0.9779 
Bi_GRU+ © False 34 93.44 92.56 92.87 0.9774 
Bi_GRU+ © True 9 98.22 93.22 93.57 0.979 2 
TextCNN+ © False 19 93.06 92.88 92.29 0.9772 
TextCNN+ © True 12 96.60 93.91 94.02 0.9827 
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图 8 不 同 分 类 算法 的 分 类 结果 


从 表 3、 图 8 可 知 : 

(1) 各 分 类 算法 与 方式 四 的 训练 集 、 验 
证 集 与 测试 集 准确 率 和 AUC 值 比 与 方式 加 都 
ZA, ERMA, Veo, Hp 
TextCNN 在 测试 集 上 准确 率 和 AUC 值 最 高 ， 分 
别 为 94.02%、0.982 7; 比 居 第 二 位 的 GRU 分 
别 高 出 0.53%, 0.001 6; 与 方式 @ 最 好 的 LSTM 
相 比 分 别 高 出 1.13%, 0.005 0; 

(2) 所 有 分 类 算法 与 方式 @ 在 训练 集 上 比 
与 方式 @ 过 拟 合 程度 更 大 ， 但 TextCNN 过 拟 合 
程度 又 是 其 中 最 小 的 。 

从 实验 总 体 看 : 在 现 有 语 料 数量 情况 下 ， 
将 句子 长 度 统一 为 128 个 词 、 使 用 Word2vec 
预 训练 256 维度 词 向 量 作为 初始 值 ， 并 结合 
Embedding 从 入 层 继续 训练 词 向 量 的 方式 和 
TextCNN 分 类 算法 ， 分 类 准确 率 和 模型 平均 性 
能 都 有 一 定 提高 ， 较 好 地 实现 了 文本 正 负 情 感 
分 类 ， 训 练 的 模型 有 较 好 的 分 类 泛 化 能 力 。 


四 结语 


本 文 利用 Word2vec 词 舱 入 技术 预 训练 语 料 
词 向 量 , 输入 Keras API 的 Embedding AJZ, 
依据 语 料 句 子 词 索 引 序列 ， 通 过 控制 Embedding 
fi AJ trainable 参数 值 ， 从 而 实现 3 种 商品 评 
论 句 子 的 文本 表示 ; 并 将 不 同 的 文本 表示 分 
别 与 不 同 分 类 算法 进行 匹配 ， 最 终 筛 选 出 较 
为 理想 的 分 类 模型 ， 即 Word2vec 词 向 量 输入 
Embedding 舰 入 层 继续 训练 的 文本 表示 方法 ， 结 


合 TextCNN 算法 训练 获得 的 分 类 模型 。 其 主要 
优点 表现 在 以 下 3 个 方面 : 中 弥补 了 单独 使 用 
Word2vec 预 训 练 词 向 量 会 降低 准确 率 、 延 长 训 
练 时 间 的 缺点 ， 和 单独 使 用 Embedding ifm AJZ 
训练 词 向 量 容 易 导 致 训练 过 拟 合 的 风险 ; DO 
Word2vec 预 训练 词 向 量 ， 输 入 Embedding ffx A 
层 继续 训练 ， 随 着 不 断 迭 代 更 新 词 向 量 ， 训 练 
时 间 反 而 缩短 ; @) 无 须 对 算法 程序 作 任 何 改 进 
只 需 设 置 Embedding mA RAR BS, Bl Alo 
低 实 现 难度 ， 更 有 利于 实际 应 用 。 

本 文 不 足 之 处 在 于 : 商品 评论 数据 种 类 较 
D>, 未 扩展 至 其 他 更 多 电 商 平台 的 商品 评论 数 
据 。 今 后 研究 重点 是 收集 更 多 的 语 料 数据 ， 增 
加 训练 数据 集 ， 并 充分 挖掘 中 文 语 料 中 具有 一 
定语 义 的 表情 符号 和 英文 单词 的 情感 表示 方法 ， 
进一步 提升 分 类 模型 的 准确 率 。 
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Abstract: [Purpose/significance] The existing text representation and classification algorithms are combined, 
and a combination mode of low complexity and less training time is selected to construct an optimization 
model for the classification of emotional texts of commodity reviews. [Method/process] Firstly, this paper 
took the Keras API as an application environment, input Word2vec word vector into Embedding embedded 
layer. Then, based on sentence word index sequence, three kinds of commodity comment text representation 
were realized by controlling the trainable parameter. Finally, in this paper, different text representations 
were matched with different classification algorithms, differences in classification effects were analyzed, and 
the better combination of algorithms was established. [Result/conclusion] The text representation method 
which is continued training by Inputting Word2vec Word Vector into Embedding embedded Layer, combined 
with the TextCNN algorithm establishes the classification model. It performs better on the product review 
test set. Its accuracy and ROC curve area AUC values are 94.02% and 0.9827, respectively. The application 
shows that the classification model can better realize the emotional classification of commodity reviews and 
has better classification generalization ability. 

Keywords: deep learning sentiment classification Word2vec word vector Embedding embedded layer 
TextCNN 
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